智能论文笔记

Argoverse 2: Next Generation Datasets for Self-Driving Perception and Forecasting

Benjamin Wilson , William Qi , Tanmay Agarwal , John Lambert , Jagjeet Singh , Siddhesh Khandelwal , Bowen Pan , Ratnesh Kumar , Andrew Hartnett , Jhony Kaesemodel Pontes

分类：计算机视觉 | 人工智能 | 机器学习 | 机器人

2023-01-02

We introduce Argoverse 2 (AV2) - a collection of three datasets for perception and forecasting research in the self-driving domain. The annotated Sensor Dataset contains 1,000 sequences of multimodal data, encompassing high-resolution imagery from seven ring cameras, and two stereo cameras in addition to lidar point clouds, and 6-DOF map-aligned pose. Sequences contain 3D cuboid annotations for 26 object categories, all of which are sufficiently-sampled to support training and evaluation of 3D perception models. The Lidar Dataset contains 20,000 sequences of unlabeled lidar point clouds and map-aligned pose. This dataset is the largest ever collection of lidar sensor data and supports self-supervised learning and the emerging task of point cloud forecasting. Finally, the Motion Forecasting Dataset contains 250,000 scenarios mined for interesting and challenging interactions between the autonomous vehicle and other actors in each local scene. Models are tasked with the prediction of future motion for "scored actors" in each scenario and are provided with track histories that capture object location, heading, velocity, and category. In all three datasets, each scenario contains its own HD Map with 3D lane and crosswalk geometry - sourced from data captured in six distinct cities. We believe these datasets will support new and existing machine learning research problems in ways that existing datasets do not. All datasets are released under the CC BY-NC-SA 4.0 license.

translated by 谷歌翻译

Iterative Scene Graph Generation

Siddhesh Khandelwal , Leonid Sigal

分类：计算机视觉

2022-07-27

场景图生成的任务需要在给定图像（或视频）中识别对象实体及其相应的交互谓词。由于组合较大的解决方案空间，现有的场景图生成方法假设关节分布的某些分解以使估计可行（例如，假设对象在有条件地与谓词预测无关）。但是，在所有情况下，这种固定的分解并不是理想的（例如，对于相互作用中需要的对象很小且本身不可辨别的图像）。在这项工作中，我们建议使用马尔可夫随机字段中传递消息，提出一个针对场景图生成的新颖框架，并在图像上引入动态调节。这是作为迭代改进过程实现的，其中每个修改都在上一个迭代中生成的图上进行条件。跨改进步骤的这种条件允许对实体和关系进行联合推理。该框架是通过基于小说和端到端的可训练变压器建筑实现的。此外，建议的框架可以改善现有的方法性能。通过有关视觉基因组和动作基因组基准数据集的广泛实验，我们在场景图生成上显示了改善的性能。

translated by 谷歌翻译

Deep Learning-Based Acoustic Mosquito Detection in Noisy Conditions Using Trainable Kernels and Augmentations

Devesh Khandelwal , Sean Campos , Shwetha Nagaraj , Fred Nugen , Alberto Todeschini

分类：机器学习

2022-07-28

在本文中，我们展示了一种独特的配方，可以通过将预处理技术融合到深度学习模型中来增强音频机学习方法的有效性。我们的解决方案通过通过训练而不是昂贵的随机搜索来优化超参数来加速培训和推理性能，从而从音频信号中构建可靠的蚊子探测器。此处介绍的实验和结果是MOS C提交ACM 2022挑战的一部分。在未发表的测试集上，我们的结果优于已发布的基线212％。我们认为，这是建立强大的生物声学系统的最好的现实世界中的一个例子之一，该系统在嘈杂的条件下提供可靠的蚊子检测。

translated by 谷歌翻译

Promotheus: An End-to-End Machine Learning Framework for Optimizing Markdown in Online Fashion E-commerce

Eleanor Loh , Jalaj Khandelwal , Brian Regan , Duncan A. Little

分类：人工智能

2022-07-03

管理折扣促销活动（“ Markdown”）是经营电子商务业务的重要组成部分，这里的效率低下可能会严重阻碍零售商的盈利能力。解决此问题的传统方法在很大程度上取决于价格弹性建模。但是，价格弹性建模的部分信息性质，以及保护盈利能力的不可谈判的责任，意味着机器学习从业人员经常必须经过巨大的时间来定义衡量离线模型质量的策略。面对这一点，许多零售商依靠基于规则的方法，因此可以通过机器学习来捕获的盈利能力获得可观的收益。在本文中，我们介绍了两个新颖的端到端降价管理系统，以优化零售商旅程的不同阶段的赌注。第一个系统“ ITHAX”制定了无需估算的理性供应方定价策略，并且可以用作“冷启动”解决方案，以收集降价数据，同时保持收入控制。第二个系统“ Prosotheus”为价格弹性提供了一个完整的降价优化的框架。我们详细描述了特定的建模和验证程序，在我们的经验中，这对于建立在现实世界中稳健性能的系统至关重要。与我们经验丰富的运营团队在受控的在线测试中做出的决策相比，这两种降级系统都具有卓越的盈利能力，相对于手动策略，改善了86％（Promotheus）和79％（ITHAX）。这些系统已被部署以在ASOS.com上管理Markdown，并且可以在各种零售电子商务环境中进行价格优化的价格优化。

translated by 谷歌翻译

Nonprehensile Manipulation of a Stick Using Impulsive Forces

Aakash Khandelwal , Nilay Kant , Ranjan Mukherjee

分类：机器人

2022-02-11

考虑了使用间歇性冲动力在三维空间中对棍子进行非骚扰操作的问题。目的是在一系列旋转对称的垂直轴对称的配置序列之间兼顾棍子。棍棒的动力学由五个广义坐标和三个控制输入描述。在应用冲动输入的两种连续配置之间，动力学在杂耍者的参考框架中以Poincar \'E映射为方便地表示。通过稳定庞加尔\'e地图上的固定点来实现与所需杂耍运动相关的轨道的稳定化。脉冲控制的Poincar \'e MAP方法用于稳定轨道，数值模拟用于证明与任意初始配置中所需的杂耍运动的收敛。在限制情况下，如果连续旋转对称配置被任意接近，则表明动力学将减少到箍上杆上稳定进动的动力学。

translated by 谷歌翻译

Tapping BERT for Preposition Sense Disambiguation

Siddhesh Pawar , Shyam Thombre , Anirudh Mittal , Girishkumar Ponkiya , Pushpak Bhattacharyya

分类：自然语言处理

2021-11-27

介词经常出现多元化词。歧义歧义在语义角色标记，问题应答，文本征报和名词复合释义中，歧义是至关重要的。在本文中，我们提出了一种新颖的介词意义消费者（PSD）方法，其不使用任何语言工具。在监督设置中，机器学习模型提出有句子，其中介词已经用感测量注释。这些感官是ID所谓的介词项目（TPP）。我们使用预先训练的BERT和BERT VARIANTS的隐藏层表示。然后使用多层Perceptron将潜在的表示分为正确的感测ID。用于此任务的数据集来自Semeval-2007任务-6。我们的方法理解为86.85％，比最先进的更好。

translated by 谷歌翻译

Simple but Effective: CLIP Embeddings for Embodied AI

Apoorv Khandelwal , Luca Weihs , Roozbeh Mottaghi , Aniruddha Kembhavi

分类：计算机视觉 | 机器学习

2021-11-18

对比语言图像预测（剪辑）编码器已被证明是有利于对分类和检测到标题和图像操纵的一系列视觉任务。我们调查剪辑视觉骨干网的有效性，以实现AI任务。我们构建令人难以置信的简单基线，名为Emplip，没有任务特定的架构，归纳偏差（如使用语义地图），培训期间的辅助任务，或深度映射 - 但我们发现我们的改进的基线在范围内表现得非常好任务和模拟器。 empclip将Robothor ObjectNav排行榜上面的20分的巨额边缘（成功率）。它使ithor 1相重新安排排行榜上面，击败了采用主动神经映射的下一个最佳提交，而且多于固定的严格度量（0.08至0.17）。它还击败了2021年栖息地对象挑战的获奖者，该挑战采用辅助任务，深度地图和人类示范以及2019年栖息地进程挑战的挑战。我们评估剪辑视觉表示在捕获有关输入观测的语义信息时的能力 - 用于导航沉重的体现任务的基元 - 并且发现剪辑的表示比想象成掠过的骨干更有效地编码这些基元。最后，我们扩展了我们的一个基线，产生了能够归零对象导航的代理，该导航可以导航到在训练期间未被用作目标的对象。

translated by 谷歌翻译

On the Application of Data-Driven Deep Neural Networks in Linear and Nonlinear Structural Dynamics

Nan Feng , Guodong Zhang , Kapil Khandelwal

分类：机器学习

2021-11-03

探讨了使用深神经网络（DNN）模型作为线性和非线性结构动力系统的代理。目标是开发基于DNN的代理，以预测给定输入（谐波）激发的结构响应，即位移和加速度。特别是，重点是使用完全连接，稀疏连接和卷积网络层的有效网络架构的开发，以及相应的培训策略，可以在目标数据用品中的整体网络复杂性和预测准确性之间提供平衡。对于线性动力学，网络层中重量矩阵的稀疏模式用于构建具有稀疏层的卷积DNN。对于非线性动力学，显示网络层中的稀疏性丢失，并探讨了具有完全连接和卷积网络层的高效DNN架构。还介绍了转移学习策略以成功培训所提出的DNN，研究了影响网络架构的各种装载因素。结果表明，所提出的DNN可以用作在谐波载荷下预测线性和非线性动态响应的有效和准确的代理。

translated by 谷歌翻译

Robust Inverse Framework using Knowledge-guided Self-Supervised Learning: An application to Hydrology

Rahul Ghosh , Arvind Renganathan , Kshitij Tayal , Xiang Li , Ankush Khandelwal , Xiaowei Jia , Chris Duffy , John Neiber , Vipin Kumar

分类：机器学习

2021-09-14

机器学习开始在一系列环境应用中提供最先进的性能，例如水文流域中的流量预测。但是，由于主要的水文工艺的可变性，在实践中建立准确的大规模模型在实践中仍然具有挑战性，这是通过一组与过程相关的盆地特征捕获的。现有的盆地特征遭受了噪音和不确定性的影响，以及许多其他事情，这会对模型性能产生不利影响。为了应对上述挑战，在本文中，我们提出了一种新颖的知识引导的自学学习（KGSSL）逆框架，以从驱动程序和响应数据中提取系统特征。即使特征被损坏，这个首先的框架即使在特征被损坏的情况下也达到了强大的性能。我们表明，KGSSL为骆驼的流量建模（大型研究的流域属性和气象学）实现了最新的结果，这是一个广泛使用的水文基准数据集。具体而言，KGSSL在重建特性中最多优于其他方法16 \％。此外，我们表明KGSSL比基线方法相对强大，并且在插入KGSSL推断的特征时，基线模型的表现优于35 \％。

translated by 谷歌翻译

What Does BERT Look At? An Analysis of BERT's Attention

Kevin Clark , Urvashi Khandelwal , Omer Levy , Christopher D. Manning

分类：

2019-06-11

Large pre-trained neural networks such as BERT have had great recent success in NLP, motivating a growing body of research investigating what aspects of language they are able to learn from unlabeled data. Most recent analysis has focused on model outputs (e.g., language model surprisal) or internal vector representations (e.g., probing classifiers). Complementary to these works, we propose methods for analyzing the attention mechanisms of pre-trained models and apply them to BERT. BERT's attention heads exhibit patterns such as attending to delimiter tokens, specific positional offsets, or broadly attending over the whole sentence, with heads in the same layer often exhibiting similar behaviors. We further show that certain attention heads correspond well to linguistic notions of syntax and coreference. For example, we find heads that attend to the direct objects of verbs, determiners of nouns, objects of prepositions, and coreferent mentions with remarkably high accuracy. Lastly, we propose an attention-based probing classifier and use it to further demonstrate that substantial syntactic information is captured in BERT's attention. 1 Code will be released at https://github.com/ clarkkev/attention-analysis.2 We use the English base-sized model.

translated by 谷歌翻译